一文了解 AlphaFold 2 背后的 PDB 蛋白质结构数据集
By 超神经
内容提要:DeepMind 的最新一代算法 AlphaFold 2,在近日被称为「蛋白质奥林匹克竞赛」的 CASP 中,完虐其它对手,取得惊人的突破,震惊整个科研圈。在被这项科研成果刷屏之后,我们来了解一下该算法背后的数据集。
关键词:蛋白质折叠 PDB 数据集
这两天,我们被 DeepMind 的新一代人工智能算法 AlphaFold 2 刷屏了,尤其是生物界,可谓迎来了里程碑式的大突破。
据 DeepMind 官方宣布,其深度学习算法 AlphaFold 2,已经成功解决过去 50 年以来生物领域的大难题。
该算法能够精确地基于氨基酸序列,预测蛋白质的 3D 结构,其准确性可以与使用冷冻电子显微镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的 3D 结构相媲美。
CASP 竞赛自由建模类别中的两个目标蛋白质示例
绿色为实验观测结果,蓝色为 AlphaFold 2 预测结果
这一里程碑式的事件,令生物学家振奋,但同时也让很多业内人士瑟瑟发抖,直呼要转行去学深度学习了。
不过,在大家都关注这项科研结果的时候,别忘了它背后的功臣—— PDB 蛋白质结构数据集,一个专门收录蛋白质及核酸的三维结构资料的数据集。
划时代意义的突破,离不开这个数据集
据 DeepMind 介绍,团队在公开数据上训练这一系统,这些数据来自蛋白质结构数据集 PDB,和包含未知结构蛋白质序列的大型数据库 UniProt,共包括约 170,000 个蛋白质结构。
其中,PDB 是一个专门收录蛋白质及核酸的三维结构资料的数据集,拥有十分悠久的历史,可以追溯到 1971 年。
当年美国布鲁克黑文国家实验室的 Walter Hamilton 决定建立这个数据库。1998 年 10 月,PDB 被移交给 Research Collaboratory for Structural Bioinformatics(RCSB,结构生物信息学研究联合实验室),由罗格斯大学的 Helen M. Berman 负责,他也是 RCSB 成员。
布鲁克黑文国家实验室成立于 1947 年
其历史上的科研发现曾 5 次获得诺贝尔奖
2003年,PDB 发展成为一个国际性组织 wwPDB(全球蛋白质数据库),来监管 PDB 的资源。wwPDB 的其他成员,包括 PDBe(欧洲)、RCSB(美国)、PDBj(日本)也为 PDB 提供了数据积累、处理和发布的中心。
wwPDB 的资源向全球公众免费开放
值得一提的是,虽然 PDB 的数据是由世界各地的科学家提交的,但每条提交的数据都会经过 wwPDB 工作人员的审核与注解,并检验数据是否合理。PDB 及其提供的软件现在对公众免费开放。
超 14 万个结构,PDB 里都哪些信息?
在过去的几十年里,PDB 的结构数量以接近指数的速度增长:
1982 年的 100 个;
1993 年的 1000 个;
1999 年的 10,000 个;
2014 年的 100,000个。
不过,自 2007 年以来,新蛋白质结构的积累速率似乎已经趋于稳定。
PDB 数据集新增结构逐年递增,规模庞大
世界各地的结构生物学家,使用诸如 X 射线晶体学、NMR 光谱和冷冻电镜等方法,来确定每个原子在分子中相对于彼此的位置。然后他们会提交此结构信息, wwPDB 对其进行批注并公开发布到数据库中。
你可以在 PDB 数据集查找核糖体、致癌基因、药物靶标,甚至整个病毒的结构,不过,PDB 里存档的结构数量规模巨大,找到所需信息可能是一项并不轻松的工作。
PDB 数据集中的信息主要包含:蛋白质/核酸来源,蛋白质/核酸分子组成,原子坐标,测定结构所用实验方法,以及温度因子、结构测定者等其它数据及信息。
数据集预览,其中包含蛋白质/核酸结构、
测定结构所用实验方法等信息
现在,该数据集已在超神经官方网站以及 openbayes.com 上线,访问:https://hyper.ai/datasets/13906 或点击「阅读原文」,就可一键获取数据集。
■ PDB 蛋白质结构数据集详情
发布时间:1971 年起收集
发布机构:wwPDB
包含数量:14 万+ 个蛋白质/核酸结构
数据格式:csv 文件
数据大小:27 MB(解压后 146MB)
下载地址:https://hyper.ai/datasets/13906
DeepMind 同款数据集,你也值得拥有~
如何使用?
我们的合作伙伴 OpenBayes ,一个针对机器学习提供云端算力的云服务。他们拥有大规模的超算集群,GPU 集群架构专针对矩阵计算设计,面向 AI 应用提供算力容器,而且上手非常简单,开箱即用。
注册新用户,即可享受 GPU 算力
访问 openbayes.com,在官网首页点击立即注册,而且内测期间周周有赠哦,再也不用跟同学、同事抢算力了~
数据集可在公共资源直接使用/下载
免费 CPU 额度:300 分钟/周
免费 vGPU 额度:180 分钟/周
PDB 完整数据集获取:
https://www.rcsb.org/#Category-download
PDB 数据集中的文件可直接用文本编辑器查看,但使用可视化工具查看效果更佳,官方推荐的查看程序 Swiss PDB viewer:
https://spdbv.vital-it.ch/disclaim.html#
其它参考资料:
http://www.wwpdb.org/
https://www.novopro.cn/articles/201912021193.html
—— 完 ——
扫描二维码,加入讨论群
获得更多优质数据集
了解人工智能落地应用
关注顶会&论文
回复「读者」了解详情
更多精彩内容(点击图片阅读)